Reinforcement Learning
基本的な解説
Mathworks - これだけは知っておきたい 3 つのこと
種類
https://gyazo.com/2adeba83fdf56c83553b0b84596e786b
深層強化学習アルゴリズムまとめ、今井翔太twitter
Q学習
DQN
DDQN, Dueling Net, Gorila, Prioriezed Experience Replay
Ape-X, R2D2
SARSA
Acto-Critic
A3C
UNREAL, ACER
DDPG, TRPO, NAC
PPO2
Policy gradients
REINROECE, 'Vanilla'
強化学習ライブラリ
KerasRL
Keras-RLを用いた深層強化学習コト始め
ChainereRL
深層強化学習ライブラリChainerRL
Stable Baseline
@H1dek1 参考:Stable BaselinesとOpenAI Gymで強化学習の環境構築
stable-baselinesは中でtensorflowを使用するが、tensorflow2には対応していないため、tensorflow1をインストールする必要がある。最新のpip3==21.x.xではtensorflow1がインストールできないため、pip3==20.x.xを使用しなければならない。
そのためにPython3.8ではなく、Python3.7にしなければならないということだ。
stalbe_baselinesをインポートすると以下のエラー、いろいろとダウングレードの必要があるようだ。
$ ModuleNotFoundError: No module named 'tensorflow.contrib'
Suttonの分類
動的計画法、モンテカルロ法、TD学習
ブートストラップ法
(wiki) 統計学においては、母集団の推定値の性質を、近似分布に従って標本化したときの性質を計算することで推定する手法。
東京大学 工学部  でんしじょうほうこう 松尾豊 研究室